草庐IT

Java Quartz 作业持久化

全部标签

mysql - 我如何查看 sqoop 作业中的增量更新值?

下面是我创建的sqoop作业sqoopjob--createsqoop_incremental_job--import--connectjdbc:mysql://quickstart.cloudera:3306/retail_db--usernameretail_dba--passwordcloudera--tablecategories--target-dir/user/cloudera/sqoop_incremental_job_categories--incrementalappend--check-columncategory_id--last-value10-m1例如:最后一

hadoop - 使用 jar 文件在 oozie 中运行 hadoop 作业

我有一个jar文件,它有sqoop作业来读取数据并将数据写入mysql。我想使用oozie工作流运行jar,下面是运行jar的命令。yarnjaraa-datalake.jarrootrootOrdersavroaa-dl-rawzone为此我需要使用哪个操作? 最佳答案 在您的Sqoop作业上创建一个额外的java包装器可能不是最好的主意。您可以通过使用Sqoopaction直接从Oozie使用Sqoop.您可以在您的Java应用程序中设置您正在使用的相同参数。如果您仍想使用包装器,可以使用Javaaction为了这。但我个人认为

hadoop - 将作业提交到 YARN 集群的正确方法,其中作业依赖于外部 jar?

我试图了解将MR(就此而言,基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业,并说代码使用第3方jar。现在,当开发人员必须将作业提交到YARN集群时,将作业提交到集群的正确方法是什么,这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的,开发人员如何“放置”第3方jar?我很难理解这一点,谁能帮助我理解这一点? 最佳答案 您必须使用Gradle或Maven简单地构建一个“fatjar子”,它不仅包含您编译的代码,还包含所有传递依赖项。您可以

java - Hadoop 作业制定,将 ArrayList<String> 传递给 Mapper()

尝试制定一个不同于普通字数统计示例的Hadoop作业。我的输入数据是以下形式:makePush,1964makePush,459makePush,357opAdd,2151opAdd,257opStop,135我想将它们传递给Mapper(),然后传递给Reducer()函数,但我在规范方面遇到了问题,即Mapper那么,例如,opAdd将是一个KEYIN,而257将是一个VALUEIN。随后,所有opAdd的总和将是一个KEYOUT,相关数字的总和将是VALUEOUT,这很合理,不是吗?但是,如何以编程方式实现呢?在我看来,它在理论上与字数统计示例并没有太大不同。

hadoop - Hadoop 作业 ID 是什么意思?

创建Hadoop作业时,会为其分配唯一ID。例如,我刚刚运行了一个ID为job_201709221002_0046的作业。似乎第一部分是某种时间戳,但它不是提交作业的日期。下划线后面的部分似乎是连续的。这个日期是什么意思?编辑:我看的这份工作是一周前的。我刚刚在2017年10月20日星期五12:22:03PDT提交了一个新的,它被分配了工作IDjob_201709221002_0047。 最佳答案 表示JobTracker启动的时间。在您的情况下job_201709221002_0047它是在201709221002开始的jobtr

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么?.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题,应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。 最佳答案 有一个神话,认为大数据是神奇的,一旦部署到大数据集群,您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解,认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群,就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法,我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

hadoop - 作业运行期间可以更改 HDFS block 大小吗?自定义拆分和变体大小

我正在使用hadoop1.0.3。是否可以根据某些约束在运行时更改(增加/减少)输入拆分/block。是否有一个类可以重写以实现这种机制,如FileSplit/InputTextFormat?我们能否根据一项作业中的逻辑约束在HDFS中使用不同大小的block? 最佳答案 您不仅限于TextInputFormat...这完全可以根据您正在阅读的数据源进行配置。大多数示例都是以行分隔的明文,但这显然不适用于XML,例如。不,block边界在运行时不能改变,因为你的数据应该已经在磁盘上,并准备好读取。但是InputSplit依赖于给定作

hadoop - 查找从 Oozie 协调器启动的工作流作业的堆栈跟踪

我有一个符合此规范的基本Oozie协调器:${timeout}${workflow}它在计划的标称开始时间附近启动了工作流作业。但后来,日志显示工作流作业进入了失败状态。为了检索工作信息,我运行了:ooziejob-info0000909-190113225141152-oozie-oozi-W它提供了有用的信息,包括以下异常跟踪:]Launcherexception:org.apache.spark.SparkException:Applicationapplication_1547448533998_26676finishedwithfailedstatusorg.apache.o

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后,由于未解析的地址和类似的消息,频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

hadoop - Nutch FetchData 作业太慢

我正在使用ApacheNutch以编程方式在EMR集群中以6个周期抓取大约7000个URL(抓取过程中很少有自定义map-reduce作业)。版本是:nutch=v1.15hadoop=2.7.3我在具有20个EC2m4.largespot实例的AmazonEMR集群上运行它。抓取的代码是:publiccrawl(Folderseeds,Folderoutput)throwsIOException,InterruptedException{finalFoldercrawldb=output.folder("crawldb");try{newInjector(this.conf).inj